今天是鐵人賽的第二十四天,我開始進入更高階的主題,學習**正規表示式(Regular Expressions, Regex)**的基本概念以及常用的匹配符號。
正則表達式允許我們匹配特定的字串模式,這在處理大型文本數據時特別有用。
今天的重點學習內容包括幾個重要符號:
-1. 可以匹配任何單個字符
-2* 可以匹配前一個字符 0 次或多次
-3+ 可以匹配前一個字符 1 次或多次
-4[] 用來定義可能的字符範圍,例如 [a-z] 可以匹配所有小寫字母
-5\d 專門用來匹配數字,\w 則匹配字母或數字
透過這些符號可以有效篩選並處理特定的文字模式,例如尋找特定的電子郵件、電話號碼或日期格式。這些技能在資料清理、爬蟲和自動化任務中非常實用,我還做了一些練習來掌握如何使用 re.match() 和 re.search() 進行簡單的匹配,並嘗試應用 re.findall() 來從文本中提取多個匹配項。正規表示式看似複雜,但隨著練習我也越來越得心應手。